SVM | AllenYGY's Blog

SVM optimization problem

min_{w, b} \frac{1}{2} | | w | |^{2}

s u b j e c t t o y_{i} (w^{T} X_{i} + b) \geq 1, i = 1, \dots, m

y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, 2, \dots, m

We can write the constraints as
$g_{i} (w) = 1 - y_{i} (w^{T} x_{i} + b) \leq 0$
When we construct the Lagrangian for our optimization problem, we have:
$L (w, b, α) = \frac{1}{2} ∥ w ∥^{2} + \sum_{i = 1}^{m} α_{i} [1 - y_{i} (w^{T} x_{i} + b)]$
Let’s find the dual form of the problem.
- First minimize $L (w, b, α)$ with respect to $w$ and $b$ (for fixed $α$ ), to get $θ_{D} (α)$ .
We’ll do this by setting the derivatives of $L$ with respect to $w$ and $b$ to zero:
$\frac{\partial}{\partial w} L (w, b, α) = w - \sum_{i = 1}^{m} α_{i} y_{i} x_{i} = 0$ $\frac{\partial}{\partial b} L (w, b, α) = \sum_{i = 1}^{m} - α_{i} y_{i} = 0$
We have: $$w = \sum_{i=1}^m \alpha_i y_i x_i$$ and $$\sum_{i=1}^m \alpha_i y_i = 0$$. Plugging back into the Lagrangian equation:
$L (w, b, α) = \frac{1}{2} ∥ w ∥^{2} + \sum_{i = 1}^{m} α_{i} [1 - y_{i} (w^{T} x_{i} + b)]$ $= \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} - b \sum_{i = 1}^{m} α_{i} y_{i}$ $= \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$

Hard SVM

Hyperplane: $H = {w | w^{T} x + b = 0}$ Constraint: $y_{i} (w^{T} x_{i} + b) \geq 1$ $\forall i$ Goal: $min \frac{1}{2} | | w | |^{2}$ s.t. $y_{i} (w^{t} x_{i} + b) \geq 1$ Lagrangian: $L (w, b, α) = \frac{1}{2} | | w | |^{2} - \sum_{i} α_{i} (y_{i} (w^{T} x_{i} + b) - 1), α_{i} \geq 0$ Partial derivative: $\frac{\partial L}{\partial w} = w - \sum_{i} α_{i} y_{i} x_{i} = 0$ $\frac{\partial L}{\partial b} = - \sum_{i} α_{i} y_{i} = 0$ Solution: $| | w | |^{2} = (\sum_{i} α_{i} y_{i} x_{i})^{T} (\sum_{i} α_{i} y_{i} x_{i}) = \sum_{i} \sum_{j} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$ Lagrangian becomes: $L = \sum_{i} α_{i} - \frac{1}{2} \sum_{i} \sum_{j} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$ s.t. $\sum_{i} α_{i} y_{i} = 0$ and $α_{i} \geq 0 \forall i$ Weight vector: $w^{*} = \sum_{i} α_{i} y_{i} x_{i}$ Bias: $b^{*} = y_{i} - \sum_{i} α_{i} y_{i} x_{i}^{T} x_{j}$

Soft SVM

Hyperplane: $H = {w | w^{T} x + b = 0}$ Constraint: $y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0, \forall i$ Goal: $min \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} ξ_{i}, s . t . y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0$
Lagrangian: $L (w, b, α, ξ) = \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} ξ_{i} - \sum_{i = 1}^{n} α_{i} (y_{i} (w^{T} x_{i} + b) - 1 + ξ_{i}) - \sum_{i = 1}^{n} μ_{i} ξ_{i}, α_{i}, μ_{i} \geq 0$ Partial Derivative: $\frac{\partial L}{\partial w} = w - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} = 0, \frac{\partial L}{\partial b} = - \sum_{i = 1}^{n} α_{i} y_{i} = 0, \frac{\partial L}{\partial ξ_{i}} = C - α_{i} - μ_{i} = 0$ Solution: $| | w | |^{2} = \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$ Dual Problem: $L = max_{α} \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$ s.t. $\sum_{i = 1}^{n} α_{i} y_{i} = 0, 0 \leq α_{i} \leq C$

Weight vector: $w^{*} = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}$ Bias: $b^{*} = y_{k} - \sum_{i = 1}^{n} α_{i} y_{i} x_{i}^{T} x_{k} for any 0 < α_{k} < C$

The reason that ξ disappears: The slack variables $ξ_{i}$ disappear in the dual problem because they are implicitly handled through the Lagrange multipliers $α_{i}$ . By taking the derivative of the Lagrangian with respect to $ξ_{i}$ , we obtain: $\frac{\partial L}{\partial ξ_{i}} = C - α_{i} - μ_{i} = 0$ This relationship ensures that $α_{i}$ is bounded by $0 \leq α_{i} \leq C$ . Consequently, the slack variables $α_{i}$ do not explicitly appear in the dual formulation. Instead, the dual problem balances maximizing the margin and allowing for misclassification through the constraint on $α_{i}$ .

Kernel SVM

Hyperplane: $H = {w | w^{T} ϕ (x) + b = 0}$ Constraint: $y_{i} (w^{T} ϕ (x_{i}) + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0, \forall i$ Goal: $min \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{n} ξ_{i}, s . t . y_{i} (w^{T} ϕ (x_{i}) + b) \geq 1 - ξ_{i}$ Lagrangian (Dual): $L (α) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j})$ s.t. $\sum_{i = 1}^{n} α_{i} y_{i} = 0, 0 \leq α_{i} \leq C, \forall i$ Weight vector: $w = \sum_{i = 1}^{n} α_{i} y_{i} ϕ (x_{i})$ Decision Function: $f (x) = sign (\sum_{i = 1}^{n} α_{i} y_{i} K (x_{i}, x) + b)$ Bias: $b = y_{k} - \sum_{i = 1}^{n} α_{i} y_{i} K (x_{i}, x_{k}) \forall s u p v e c 0 < α_{k} < C$ Kernel Functions:
Linear: $K (x_{i}, x_{j}) = x_{i}^{T} x_{j}$
Polynomial: $K (x_{i}, x_{j}) = (x_{i}^{T} x_{j} + c)^{d}$
Gaussian (RBF): $K (x_{i}, x_{j}) = \exp (- \frac{| | x_{i} - x_{j} | |^{2}}{2 σ^{2}})$
Sigmoid: $K (x_{i}, x_{j}) = \tanh (κ x_{i}^{T} x_{j} + c)$

Algorithm

Tutorial

assignment

Assignment

As-1

As-2

Lab-1

Lab-2

Lab-3

Lab-4

GAMES101

Assignment-1

Assignment-2

Assignment-3

Assignment-4

Lab

Lecture

Peoject

CSCN

Ploidy

SVM optimization problem ​

Hard SVM ​

Soft SVM ​

Kernel SVM ​

SVM optimization problem

Hard SVM

Soft SVM

Kernel SVM